从现有数据中学习最佳行为是加强学习(RL)中最重要的问题之一。这被称为RL中的“非政策控制”,其中代理的目标是根据从给定策略(称为行为策略)获得的数据计算最佳策略。由于最佳策略可能与行为策略有很大不同,因此与“政体”设置相比,学习最佳行为非常困难,在学习中将利用来自策略更新的新数据。这项工作提出了一种非政策的天然参与者批评算法,该算法利用州行动分布校正来处理外部行为和样本效率的自然政策梯度。具有收敛保证的现有基于天然梯度的参与者批评算法需要固定功能,以近似策略和价值功能。这通常会导致许多RL应用中的次级学习。另一方面,我们提出的算法利用兼容功能,使人们能够使用任意神经网络近似策略和价值功能,并保证收敛到本地最佳策略。我们通过将其与基准RL任务上的香草梯度参与者 - 批评算法进行比较,说明了提出的非政策自然梯度算法的好处。
translated by 谷歌翻译
我们考虑了两个玩家零和游戏的问题。这个问题在文献中制定为Min-Max Markov游戏。该游戏的解决方案是从给定状态开始的最小最大收益称为状态的最小值。在这项工作中,我们使用在文献中成功应用的连续放松技术​​来计算双球员零和游戏的解决方案,以在马尔可夫决策过程的上下文中计算更快的价值迭代算法。我们将连续放松的概念扩展到两个玩家零和游戏的设置。我们表明,在游戏的特殊结构下,该技术有助于更快地计算状态的最大值。然后,我们推导出一种广义的Minimax Q学习算法,当模型信息未知时计算最佳策略。最后,我们证明了利用随机近似技术的提议的广义Minimax Q学习算法的收敛性,在迭代的界限上的假设下。通过实验,我们展示了我们所提出的算法的有效性。
translated by 谷歌翻译
Monte-Carlo Tree Search (MCTS) is an adversarial search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the game-theoretic soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
translated by 谷歌翻译
Many scientific domains gather sufficient labels to train machine algorithms through human-in-the-loop techniques provided by the Zooniverse.org citizen science platform. As the range of projects, task types and data rates increase, acceleration of model training is of paramount concern to focus volunteer effort where most needed. The application of Transfer Learning (TL) between Zooniverse projects holds promise as a solution. However, understanding the effectiveness of TL approaches that pretrain on large-scale generic image sets vs. images with similar characteristics possibly from similar tasks is an open challenge. We apply a generative segmentation model on two Zooniverse project-based data sets: (1) to identify fat droplets in liver cells (FatChecker; FC) and (2) the identification of kelp beds in satellite images (Floating Forests; FF) through transfer learning from the first project. We compare and contrast its performance with a TL model based on the COCO image set, and subsequently with baseline counterparts. We find that both the FC and COCO TL models perform better than the baseline cases when using >75% of the original training sample size. The COCO-based TL model generally performs better than the FC-based one, likely due to its generalized features. Our investigations provide important insights into usage of TL approaches on multi-domain data hosted across different Zooniverse projects, enabling future projects to accelerate task completion.
translated by 谷歌翻译
在软件开发过程中,开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究,但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集,具有提取性问答和答案对,涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的,策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型,以预测答案和支持事实跨度。给定查询和代码,只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验,其中仅给出了模型的相关代码,并表明我们的模型做得很好。然后,我们在三个务实的考虑因素下进行实验:(1)扩展到大尺寸的代码,(2)从有限数量的示例中学习,(3)代码中对次要语法错误的鲁棒性。我们的结果表明,虽然神经模型可以抵御代码中的次要语法错误,代码的大小增加,与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型,以促进未来关于回答代码语义查询的问题的工作。
translated by 谷歌翻译
紧固件在确保机械的各个部位方面起着至关重要的作用。紧固件表面的凹痕,裂缝和划痕等变形是由材料特性和生产过程中设备的错误处理引起的。结果,需要质量控制以确保安全可靠的操作。现有的缺陷检查方法依赖于手动检查,该检查消耗了大量时间,金钱和其他资源;同样,由于人为错误,无法保证准确性。自动缺陷检测系统已证明对缺陷分析的手动检查技术有影响。但是,诸如卷积神经网络(CNN)和基于深度学习的方法之类的计算技术是进化方法。通过仔细选择设计参数值,可以实现CNN的全部电势。使用基于Taguchi的实验和分析设计,已经尝试在本研究中开发强大的自动系统。用于训练系统的数据集是为具有两个标记类别的M14尺寸螺母手动创建的:有缺陷且无缺陷。数据集中共有264张图像。所提出的顺序CNN的验证精度为96.3%,在0.001学习率下的验证损失为0.277。
translated by 谷歌翻译
尽管深层模型在医学图像分割中表现出了有希望的性能,但它们在很大程度上依赖大量宣布的数据,这很难访问,尤其是在临床实践中。另一方面,高准确的深层模型通常有大型模型尺寸,从而限制了它们在实际情况下的工作。在这项工作中,我们提出了一个新颖的不对称联合教师框架ACT-NET,以减轻半监督知识蒸馏的昂贵注释和计算成本的负担。我们通过共同教师网络推进教师学习的学习,以通过交替的学生和教师角色来促进从大型模型到小模型的不对称知识蒸馏,从而获得了临床就业的微小但准确的模型。为了验证我们的行动网络的有效性,我们在实验中采用了ACDC数据集进行心脏子结构分段。广泛的实验结果表明,ACT-NET的表现优于其他知识蒸馏方法,并实现无损分割性能,参数少250倍。
translated by 谷歌翻译
有了大规模标记的数据集,深度学习在医学图像分割方面已取得了重大成功。但是,由于广泛的专业知识要求和昂贵的标签工作,在临床实践中获取大量注释是具有挑战性的。最近,对比学习表明,在未标记的数据上进行视觉表示学习的能力很强,在许多领域中实现了令人印象深刻的性能与监督的学习。在这项工作中,我们提出了一个新型的多尺度多视图全球对比度学习(MMGL)框架,以彻底探索不同尺度的全球和局部特征,并观察到可靠的对比度学习表现,从而通过有限的注释来改善细分性能。在MM-WHS数据集上进行的广泛实验证明了MMGL框架对半监视的心脏图像分割的有效性,从而超过了最先进的对比度学习方法,这是通过较大的余量。
translated by 谷歌翻译
搜索和检索仍然是多个领域的主要研究主题,包括计算机图形,计算机视觉,工程设计等。搜索引擎主要需要输入搜索查询和要搜索的项目数据库。在本文的主要背景工程中,数据库由3D CAD模型组成,例如垫圈,活塞,连杆等。用户的查询通常以草图的形式,试图捕获该草图3D模型的详细信息。但是,草图具有某些典型的缺陷,例如间隙,过度划分的部分(多冲程)等。由于检索到的结果仅与输入查询一样好,因此草图需要清理和增强,以更好地检索结果。在本文中,提出了一种深度学习方法来改进或清洁查询草图。最初,分析了来自各个类别的草图,以了解可能发生的许多可能的缺陷。然后根据对这些缺陷的理解创建清理或增强查询草图的数据集。因此,进行了深神网络的端到端培训,以提供有缺陷和干净的草图之间的映射。该网络将有缺陷的查询草图作为输入,并生成清洁或增强的查询草图。拟议方法与其他最新技术的定性和定量比较表明,所提出的方法是有效的。搜索引擎的结果是使用缺陷和增强查询草图报告的,并且显示出使用来自开发方法的增强查询草图可以改善搜索结果。
translated by 谷歌翻译
本文研究了使用风险模型来预测电力基础设施引起的野火的时间和位置。我们的数据包括由2015年至2019年间在太平洋天然气和电力领域收集的网格基础设施触发的历史点火和降线点,以及各种天气,植被以及网格基础设施的高分辨率数据,包括位置,年龄,材料。通过这些数据,我们探讨了一系列机器学习方法和管理培训数据不平衡的策略。我们获得的接收器操作特性下的最佳区域为0.776,用于分配馈线点火器,传输线向下事件为0.824,均使用基于直方图的梯度增强树算法(HGB),并带有下采样。然后,我们使用这些模型来确定哪些信息提供了最预测的价值。线长度后,我们发现天气和植被特征主导着点火或降线风险的最重要功能。分配点火模型显示出更大的依赖性对慢变化的植被变量,例如燃烧指数,能量释放含量和树高度,而传输线模型更多地依赖于主要天气变量,例如风速和降水量。这些结果表明,改进的植被建模对进料机点火风险模型的重要性,以及对传输线模型的天气预测改进。我们观察到,基础架构功能可以对风险模型预测能力进行较小但有意义的改进。
translated by 谷歌翻译